JSAI2026 研究会優秀賞:「RDFスキーマ推論規則を対象とした大規模言語モデルの推論能力の段階的評価」
テーマ
RDFスキーマ(RDFS)の推論規則を対象に、LLMがどの程度「規則に基づいて」推論できるかを評価する研究 単なる知識補完ではなく、規則適用・規則選択・頑健性を段階的に見る
背景課題
LLMは自然言語タスクでは高性能だが、厳密な論理推論はまだ難しい
既存評価では、RDFS推論規則を体系的に扱う評価が十分ではなかった
実世界知識だけで評価すると、モデルが論理ではなく事前知識や語彙の手がかりで答えてしまう可能性がある
提案
RDFS推論規則をもとに、複数段階の評価タスクを設計
実世界知識データと、反実仮想的に改変した知識データを使って評価 規則を1つだけ適用する場合、複数規則を適用する場合、関連規則を選んで適用する場合を分けて見る
ポイント daiiz.icon
LLMの推論っぽさを疑う
反実仮想データセットを食わせてテストする
RDFSを使っているのが賢い
自然文の穴埋め問題みたいなものを使って同様のこともできるだろうが、こっちのほうが説明可能な感じがしていい
語彙・表記の影響の可視化
KG × LLM の役割分担を考える材料になる